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摘 要 : 随 着 巡天 观测 计划 的 进行 , 传统 数据 库 技术 无 法 满足 海量 天 文 数据 的 存储 以 及 检索 
性 能 的 需求 。 本 文 针 对 海量 天 文 数据 存储 以 及 锥 形 检索 时 的 高 并 发 、 高 性 能 问题 ， 采 用 数据 库 
中 间 件 技术 ， 当 海量 数据 到 达 传 统 数 据 库 存储 的 国 值 时 ， 能 够 通过 中 间 件 技术 以 分 库 分 表 的 形 
式 存储 到 数据 库 集群 中 ， 充 分 整合 关系 性 数据 库 和 分 布 式 技术 的 优点 。 在 本 文中 ， 利 用 MySQL 
数据 库 集 成 DIF 插 件 ， 在 分 布 式 数据 库 中 建立 伪 球 面 索引 ， 能 够 满足 海量 天 文 数据 中 锥 形 索 引 需 
求 。 
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近年 来 ， 随 着 大 型 天 文 观测 装置 的 性 能 不 断 提 升 ， 以 及 获取 天 文 观测 数据 的 能 力 得 到 了 空 
前 加 强 , 国内 外 涌现 出 大 批 天 文 观测 科学 工程 。 如 我 国 自主 设计 研发 的 郭守敬 望远镜 (Large Sky 
Area Multi-object Fiber Spectro-scopic Telescope，LAMOST) 每 晚 的 采集 光谱 数据 达到 20GB", 
和 鲁 宾 天 文 台 (Vera C.Rubin Observatory) 所 使 用 的 大 口径 全 天 巡视 望远镜 (Large Synoptic Survey 
Telescope, LSST) 每 晚 采集 的 原始 观测 数据 多 达 15TB， 平方 千 米 射电 望远镜 阵 (Square 
Kilometre Array, SKA) 预期 每 年 产 出 约 为 300PB， 是 国内 外 共同 协作 的 大 科学 装置 ， 是 世界 
上 最 大 的 射电 天 文 合 。 正 是 在 这 种 大 数据 时 代 的 背景 下 ， 探 索 海量 天 文 数据 如 何 高 效 、 可 扩展 
的 检索 成 为 天 文科 学 观测 领域 内 的 蝇 待 解决 的 难题 。 

科学 检索 传统 上 依赖 于 关系 型 数据 库 , 对 于 非 海量 的 结构 化 数据 , 通过 建立 数据 索引 机 制 ， 
能 够 有 具有 较 好 的 检索 效率 。 但 是 ， 随 着 天 文 观测 逐渐 从 光学 观测 覆盖 到 全 波段 观测 ， 传 统 数据 
库 无 法 适应 数据 雪 朋 式 增 长 所 带 来 的 冲击 。NoSQL 系统 通常 使 用 键 值 存储 格式 ， 其 中 同一 键 下 
的 所 有 数据 值 都 存储 在 一 起 并 可 以 快速 一 起 访问 。 Brahem 等 提出 了 AstroSpark 中 天 文 检 索 系 统 ; 
印 等 实现 基于 分 布 式 阵列 数据 库 的 FASTDB 系统 6。 它 们 县 有 低 延 迟 、 可 扩展 、 性 价 比 高 等 优 
点 。 但 是 ， 由 于 它 的 底层 存储 格式 ， 它 缺乏 关系 模型 的 高 级 功能 ， 并 且 损 害 了 ACID 属性 只 。 
近年 来 ，NoSQL 演变 到 NewSQL，NewSQL 系统 本 质 上 是 一 个 关系 DBMS, HAX SQL、 索 引 
和 架构 的 支持 ， 它 不 仅 可 以 文 持 事务 的 ACID 属性 ， 而 且 具 有 与 NoSQL 相同 的 可 伸缩 性 。 它 的 
基本 体系 结构 是 并 行 的 DBMS， 在 查询 负载 方面 的 性 能 优 于 MapReduce ERT, SARKA 
据 库 结合 传统 关系 数据 库 、 分 布 式 集群 以 及 分 布 式 事务 来 实现 。 其 不 仅 和 传统 数据 库 具 有 高 度 
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兼容 性 ， 还 可 以 更 好 的 支持 SOL MAES AAS, 


但 是 ， 即 使 在 性 能 强大 的 分 布 式 关系 数据 库 


的 检索 访问 需要 有 效 的 球面 索引 ， 目 前 应 用 广泛 
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的 伪 球 


FPF， 由 于 各 大 天 文 巡天 项 目 发 布 的 数据 星 表 的 
数据 量 越 来 越 大 ， 直 接 检 索 的 方式 无 法 满足 当前 天 文 数据 的 检索 需求 ， 所 以 大 规模 星 表 数 据 集 


而 索引 方法 有 HTM (Hierarchical Triang- 


ular Mesh) , HEALPix (Hierarchical Equal Area isoLatitude Pixelisation) 及 Q3C (Quad Tree Cube)! 
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检索 作为 天 文 领域 的 一 种 特殊 检索 方式 


(Declination，Dec) 和 和 角 距离 (SR) 的 位 置信 


其 定义 天 区 中 下 
Ei bi 通常 


锥 形 检索 (Cone Search) 就 是 对 这 个 锥 形 相 关 天 体 的 信息 查询 ， 即 查询 


以 (Ta、 


Taec) 为 


E 形 检索 来 实现 大 规模 星 表 数 据 集 的 检索 。 锥 形 
IIR% (Right Ascension，R.A.) 和 赤 纬 
圆心 ，SR 为 半径 的 锥 形 区 域 ， 
目标 星体 (S$,a。、Saec)。 本 


文 整合 D 正 索引 工具 到 分 布 式 MySQL 数据 集群 中 ， 使 分 布 式 关 系 型 数据 库 能 够 建立 伪 球 面 索 


引 从 而 实现 高 效 锥 形 检索 的 需求 。 


本 文 第 一 节 将 研究 数据 库 中 间 件 技术 的 基本 框架 、 代 : 


现 锥 形 检索 。 


理 模 式 及 其 高 可 用 架构 ， 利 用 分 库 分 
表 和 读 写 分 离 对 MySQL 数据 库 水 平 扩展 ， 并 且 能 够 文 持 事务 、ACID 等 。 
DEF 索引 工具 ， 使 用 DIF 工具 来 建立 适合 分 库 分 表 规 则 的 伪 球 
第 三 节 将 研究 设计 试验 的 框架 结构 ， 以 及 介 
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面 索引 ， 并 且 通 过 其 内 置 函 数 实 
该 框架 下 的 锥 形 检 索 服务 。 第 四 市 


将 进行 DIF 工具 函数 方法 和 大 圆 公 式 的 锥 形 检索 对 比 、 数 据 库 节点 的 对 比 、HEALPix 索引 等 级 


的 对 比 、 以 及 单机 和 分 布 式 的 检索 性 能 对 


1 数据 库 中间 件 


数据 库 中 间 件 可 以 封装 底层 数据 ， 实 现 单数 据 库 一 样 的 数据 操作 方式 ， 有 两 种 典型 的 数据 


比分 析 。 


库 中 间 件 的 模式 ， 分 别 是 服务 端 代理 (数据 库 代 理 ) 和 客户 端 代理 
是 通过 代理 服务 器 ， 管 理 多 个 数据 库 实 例 ， 客 户 端 通过 数据 源 与 代理 
所 有 的 SQL 操作 都 由 代理 分 发 给 底层 数据 库 ， 得 到 的 结果 也 同样 经 过 代理 整合 返回 给 客户 端 。 
而 数据 源 代理 方式 , 是 内 部 管理 多 个 普通 数据 源 , 客户 端的 SQL 操作 通过 数据 源 代 理 进 行 如 SQL 
解析 、SQL 改 写 等 ， 然 后 分 发 给 普通 数据 源 去 执行 ， 得 到 结果 也 是 ! 


(数据 源 代理 )。 数 据 库 代理 方式 
服务 器 建立 连接 ， 客 户 端 


代理 合并 返回 给 客户 端 ""。 


从 SQL 处 理 过 程 来 分 析 ， 数 据 库 中 间 件 可 以 解析 客户 端 发 送 的 事务 请 求 ， 在 进行 比如 SQL 解析 、 


优化 和 路 由 分 析 等 ， 


到 多 个 数据 库 服务 端 ， 可 以 有 效 地 缓解 单机 数据 
库 中 间 件 能 够 支持 高 可 用 ， 可 添加 配置 中 心 和 监控 服务 形成 简单 的 高 可 用 架构 。 
E 送 变更 信息 到 配置 


监测 到 集群 状态 ， 如 有 变更 ， 


拆 分 为 数据 库 可 以 执行 的 线程 人 有 


变更 信息 ， 从 而 更 新 数据 库 配 置 。 如 图 1 所 示 。 


Hubs, Bet ERE 


FE 务 ， 按 照 预 先 设置 好 的 分 库 分 表 规则 分 发 
库 的 负载 压力 ， 达 到 削 峰 的 作用 。 为 了 使 数据 


通过 监控 服务 


EProxy 拉 取 配 置 中 心 的 配置 


| 
图 1 数据 库 中 间 件 框架 


Fig.l Database middleware architecture 
为 了 降低 锥 形 检 索 服务 的 负载 和 开销 ， 可 采用 主 从 读 写 分 离 分 布 、 分 库 分 表 的 方式 。 还 可 
以 实现 数据 库 的 横向 扩展 ， 提 高 锥 形 检索 效率 和 并 发 量 。 
1.1 分 库 分 表 
分 库 分 表 是 数据 库 中 间 件 的 核心 功能 。 常 用 切 分 方法 是 垂直 切 分 以 及 水 平 切 分 ， 在 分 布 式 
领域 常用 水 平分 库 分 表 的 方式 来 解决 单一 数据 库 的 瓶 项 ， 缓 解 单机 数据 库 的 访问 压力 。 使 用 关 
系 型 数据 库 MySQL 来 水 平 划 分 ， 根 据 水 平分 表 规 则 将 全 局 关系 的 N 表 ， 划 分 为 若干 个 不 相交 的 
子 集 (NI|，N,，N;.….N, ) 以 满足 完整 性 、 重 构 性 以 及 不 相交 性 , 分 别 对 应 公式 (1), (2), 6): 


If ae N is satisfied, then it can be proven that :a e N,,i =1,2...n (1) 
N1UN2U...UN,;,j=1,2...n (2) 
N,, N, e N,then N,N, #0 G) 


1.2 读 写 分 离 

由 于 数据 库 读 取 操 作 的 比例 远 远大 于 写 入 操作 ， 常 使 用 一 主 多 从 的 分 布 方式 ， 主 节点 负责 
写 操作 ， 而 从 节点 负责 读 操 作 。 通 过 读 写 分 离 ， 将 负载 均衡 到 了 多 个 节点 上 。 使 用 读 写 分 离 的 
机 制 ， 需 要 维护 好 数据 一 致 性 问题 ， 常 用 数据 同步 方式 除了 主 从 复制 ， 还 有 Paxos、Raft，Term、 
ZAB 等 协议 算法 。MySQL 中 常 使 用 MySQL Proxy 作 为 读 写 分 离 的 中 间 层 ， 通 过 内 舱 式 Lua 解 
析 器 来 定义 查询 处 理 等 1。 


2 DIF Fat 


动态 索引 工 
++ 库 、Perl 脚本 、 和 SQL 存储 过 程 编 译 而 成 ， 
像素 化 方法 将 其 映射 到 1 维 空 
的 方式 进行 检索 ， 其 时 间 复 杂 度 为 0 Cn) 。 


在 进行 锥 


具 (Dynamic Index Facility, DIF)" JFK MySQL/MariaDB 数据 库 揪 件 ， 由 C 
的 方法 是 “离散 化 ”2 维 
至 间 。 然 后 为 每 个 像素 标记 一 个 唯一 的 索引 ID， 如 果 只 是 按照 穷 举 


TE TK) 


空间 ， 并 使 用 


形 检索 时 ， 需 要 建立 伪 球 


面 索 引 来 多 sis 


索 的 时 间 复 杂 度 ， 而 使 
减少 到 log> NW， 但 是 由 了 


SQL 建立 伪 球 面 索 引 所 使 用 的 索引 方法 。 
DIF 索引 工具 使 


的 大 多 数 索 引 都 是 基于 树 结构 。B-Treet "索引 方法 可 以 将 时 间 复 杂 
B-Tree 的 深度 随 着 数据 量 的 增加 而 增加 ， 
PRINS]. SEF B * 树 的 索引 方法 是 数据 库 系统 中 最 常用 的 动态 索引 结 


因此 难以 将 其 应 用 TARA 
构 , 这 也 是 DIF 通过 My- 


j 的 是 目前 应 用 最 广泛 的 几 种 伪 球 面 索引 方法 中 的 分 层 三 角 网 格 (Hierarch- 


ical Triangular Mesh, HTM) 和 HEALPix( We Equal Area isoLatitude Pixeli- sation, HEAL- 


Pix). HTM 作为 天 区 划分 的 经 典 索 引 方式 , 最 早 
rvey, SDSS)”. HEALPix 用 等 面积 的 四 边 


们 同样 具有 四 又 树 式 的 层次 递归 规律 呈 。 


索 等 在 海量 天 文 数据 的 得 到 广泛 应 用 中 。 


ap 
= 


H is „ HEALPix 相关 


点 用 于 斯 隆 数字 巡天 数据 (Sloan Digital Sky Su- 
a HTM 的 三 角形 划 IINA, E E 
的 伪 球 面 索引 建立 和 高 


本 文 使 用 DIF 索引 工具 预先 建立 HEALPix Nest 索引 ， 然 后 通过 DIF_Circle(RA, DEC, SR) 


中 RA 为 赤 经 、 


T 函数 实现 锥 形 检索 ， 其 


返回 结果 集 。 


3 ”设计 与 实现 


为 了 实现 海量 天 文大 数据 的 高 


DEC 为 赤 纬 和 SR 为 角 距 离 
工具 包 计 算出 HEALPix Nest 中 与 圆锥 相交 的 像素 ， 然 后 ， 通 过 MySQL 数据 库 查 找 对 应 像素 ， 


CA] X 
A. 
= 


middleware 


Database 


Bi. DIF 是 使 用 


healpix _base 


效 锥 形 检索 需求 ， 本 文 设计 了 基于 数据 库 中 间 件 、MySQL 数 
pag 据 库 和 DIF 索 引 工 具 的 方案 。 图 2 是 设计 的 主体 框架 。 


O | Cone Search Client ) 


[SSS SS 2 


Fig. 
在 图 2 框架 中 ,， 锥 形 检 索 服 务 , 不 是 直接 访问 底层 数据 库 ， 而 是 先 通 过 
设 定好 的 集 略 ， 将 锥 形 检 索 命 令 定向 转发 到 数据 库 中 间 件 服务 ， 


2 框架 设计 
2 Framework design 


代理 服务 器 按照 预先 
经 过 中 间 件 的 SQL 解 析 、SQL 


路 由 、SQL 改 写 、SQL 执 行 以 及 结果 集 的 合并 。 其 中 底层 通过 DBIDBD-MySQL 模 块 和 MySQL 


数据 库 进 行 通信 ，6 


可 以 通过 MySQL 数 据 库 函 数 来 进行 调用 。 
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4 ”试验 及 讨论 


为 了 验证 本 文 分 布 式 锥 形 检 索 框 架 的 优势 ， 本 文 进行 了 单机 关系 型 数据 库 MySQL 与 本 文 分 
布 式 架构 的 锥 形 检索 对 比试 验 。 
4. 1 测试 环境 

分 布 式 测试 平台 是 由 中 科 上 曙光 (Sugon) 服 务 器 组 成 集群 ,服务器 处 理 器 Intel(R) Xeon(R)CPU 
E7- 4807, 内 存 是 16G, 存储 为 2*256GB 的 SSD, 服务 器 间 通 过 王 兆 网 络 连接 , 操作 系统 是 Ubuntu 
18.04.4 LTS。 一 人 台 服 务 器 搭建 中 间 件 系统 ， 另 外 三 台 上 搭建 MySQL 5.7.31 和 DIF 0.5.5。 单 机 测 
试 环境 与 分 布 式 测试 平台 服务 器 相同 配置 。 
4.2 测试 数据 

本 测试 使 用 Gaia 数据 集 第 二 版 的 源 数据 表 ， 该 表 包 含 基 本 的 源 参数 。 如 表 1 所 示 ， 过 滤 原 
数据 集 一 些 和 锥 形 检索 无 关 的 数据 列 ， 从 中 提取 source_id、ra、dec 三 列 数据 作为 测试 数据 ， 然 
后 可 以 通过 DIF 工具 建立 HEALPix Nest 索引 。 

表 1 数据 集 描述 


Tab.1 Description of dataset 


数据 集 数据 量 数据 说 明 (数据 参数 及 数据 类 型 ) 
Gaia DR2 1 „692 919 ,135 source id: 唯一 标识 符 Cong) ra: JR% (double, dec: Jk% (double, 
度 [deg]) 度 [deg]) 


DIF 和 大 圆 公式 的 锥 形 检索 对 比如 表 2 所 示 ， 试 验 在 分 布 式 测试 环境 下 进行 ， 其 中 检索 中 
心 为 (0，50)， 检索 半 径 为 1 度 。 第 一 种 ，DIF 工具 的 SOL 模板 表示 以 赤 经 、 赤 纬 (ra，dec) 为 
中 心 ，SR 为 角 距离 来 进行 锥 形 检 索 ， 其 中 RA，DEC) 为 数据 集中 的 赤 经 、 赤 纬 ， 单 位 为 度 
(degree, deg), SR 的 单位 为 角 分 (arcminute)。 第 二 种 ， 通 过 建立 DEC 索引 ， 然 后 进行 DEC-1， 
DEC+I1) 的 范围 过 滤 ， 最 后 利用 大 圆 公式 来 计算 球面 角 距 离 小 于 SR 的 集合 ， 从 而 实现 锥 形 检索 
的 目的 ， 其 中 角 距 离 SR 为 度 (degree，deg)。 大 圆 公式 是 两 点 赤道 坐标 为 pl(RA, DEC), p2(ra, 
dec), 求 它们 的 球面 角 距离 d， 公 式 如 (4) AVV, 

d = arccos[sin(DEC)sin(dec) + cos(DEC)cos(dec)cos(RA — ra)] (4) 


He 2 DIF 与 大 圆 公 式 对 比 


Tab.2 Comparison between DIF and Great-Circle formula 


查询 方式 SQL Order Count Intersect Times(s) 
DIF SELECT COUNT(*) FROM GAIA healp nest Order WHERE dif Circle(ra, dec, SR); 14 4.950 

大 圆 公式 ( SELECT COUNT(*) FROM GAIA WHERE DEC between DEC-SR and DEC+SR and Jù 81510 81510 890.910 
优化 ) DEGREES ( ACOS(SIN(RADIANS(DEC))*SIN(RADIANS(dec)) + COS 


(RADIANS( DEC ) ) * COS (RADIANS(dec))*COS(RADIANS(RA-ra))))<SR; 


由 表 2 所 示 ， 两 种 方式 的 结果 集 数 量 (Counb 与 两 结果 集 的 交集 (Intersecb 数 量 一 致 ， 可 以 确 
定 DIF 实现 方式 和 优化 的 大 圆 公 式 的 结果 是 一 致 的 ， 除 此 之 外 ，DIF 查询 方式 的 效率 更 高 。 


4. 3 测试 结果 及 分 析 


为 了 试验 测试 数据 库 节 点 数量 以 及 HEALPix Nest 的 索引 级 别 order 对 检索 效率 的 影响 ， 从 而 
确定 数据 库 节 点 数量 和 索引 级 别 order 的 选用 , 进行 了 以 下 对 比 实验 。 由 图 3 所 示 ， 数 据 库 节点 分 
别 为 1，3，15，30，60，100 节 点 下 锥 形 检索 的 对 比 ， 试 验 的 检索 中 心 是 (40，0)(degree)， 横 轴 
为 检索 半径 SR(arcmin) 从 30 到 240， 竖 轴 为 检索 时 间 (ms)。 为 了 消除 缓存 机 制 对 实验 的 干扰 ， 试 
验 过 程 中 通过 set global query_cache_size=0 或 者 set global query_cache_type=0 来 临时 关闭 缓存 。 
对 比 发 现 ， 当 节点 由 1 增加 到 30 节 点 的 过 程 中 ,检索 时 间 呈 现 递 减 趋 势 ， 然 而 ， 当 节点 继续 增加 
到 60 甚 至 100 的 时 候 ， 检 索 时 间 呈 现 递 增 趋势 。 所 以 ， 本 文选 择 30 节 点 为 试验 测试 节点 数量 。 
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图 3 数据 库 节 点 的 对 比 


Fig.3 Comparison for database nodes 


为 了 对 比 HEALPix Nest 各 个 索引 等 级 order 对 锥 形 检索 效率 的 影响 ， 选 择 在 30 节点 下 进 
行 40，0) 为 中 心 ，60(arcmin) 为 检索 半径 的 锥 形 检 索 试验 ， 结 果 如 图 4 所 示 : 
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图 4 索引 等 级 对 比 


Fig.4 Comparison for index level 


Fan D 等 29 文献 进行 了 索引 等 级 与 检索 效率 之 间 的 对 比 实验 ， 得 出 了 索引 等 级 order=12 为 
该 文献 最 佳 方案 。 并 指出 对 于 不 同 密度 的 数据 集 ， 可 能 有 不 同 的 选择 。Berriman 等 2 文献 对 比 
了 该 文献 对 比 了 HIM、HEALPix 索引 在 Solaris. Windows 和 Windows Server 数据 库 服务 器 的 
性 能 ， 提 出 了 提高 索引 等 级 ， 可 提高 性 能 ， 但 是 索引 等 级 并 不 是 越 大 越 好 ， 还 得 考虑 索引 粒度 
过 细 造 成 的 性 能 退化 以 及 硬件 IO 吞吐 量 等 因数 。 本 文 结合 文献 以 及 图 4 的 结果 ， 选 择 索引 等 
级 order 为 12 为 本 数据 样本 的 最 佳 方案 ， 不 至 于 粒度 过 大 ， 影 响 检索 结果 的 正确 率 ， 也 不 至 于 
索引 等 级 过 高 造成 检索 效率 的 下 降 。 

由 上 图 3 的 对 比 ， 选 择 30 个 节点 和 单机 通过 Jmeter 工具 来 进行 压力 测试 ， 测 试 采 用 500 
个 并 发 , 对 系统 进行 以 (40, 0)(degree) 为 中 心 , 查询 半径 为 60(arcmin), HEALPix 的 order 为 12, 
进行 锥 形 检 索 ， 结 果 如 下 表 3、 图 5 所 示 。 


表 3 检索 性 能 指标 对 比 
Tab.3Comparison of retrieval performance indicators 
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Request Executions Response Time (ms) Throughput 
Label Samples Error% Average Median 90th pet 95th pet 99th pet Transactions/s 
单机 10000 0. 00% 1365. 48 1207. 00 1875. 80 2097. 40 2921. 88 57. 87 
分 布 式 10000 0. 00% 87. 64 86. 45 134. 45 164. 32 267. 81 146. 3 
100 
90 
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Elapsed time(granularity:1 sec) 


图 5 CPU 性 能 对 比 


Fig.5 Comparison for CPU performance 


对 比 表 3， 锥 形 检索 属于 数据 密集 型 计算 ， 十 分 消耗 CPU 资源 ， 在 数据 库 中 间 件 的 分 布 式 
案 不 仅 可 以 有 效 加 速 锥 形 检索 效率 ,而且 还 具有 更 大 的 吞吐 量 。 在 图 5 P, MySQL 单机 进行 


Abe oe oe CPU 占用 率 达 到 了 90% 以 上 ， 本 文中 间 件 框架 下 的 分 布 式 检索 的 CPU 占用 率 


在 50% 左 右 。 本 文 提 出 的 面向 海量 天 文 数据 的 数据 库 中 间 的 分 布 式 解决 方案 ， 能 够 有 效 提 高 处 


理 锥 形 检索 的 检索 效率 ， 为 未 来 巡天 项 目的 锥 形 检索 提出 一 


5 结束语 


据 库 中 间 件 和 DIF 工 具 ， 来 扩展 MySQL 数 据 库 系统 的 方案 。 


主要 


些 参考 。 


日 益 增 长 的 海量 天 文 数据 始终 面临 看 数据 存储 和 高 效 检索 的 问题 ， 本 文 提出 了 一 种 通过 数 


要 通过 数据 库 中 间 件 实现 MySQL 


数据 库 的 分 库 分 表 ， 来 缓解 面 对 海 量 天 文 数据 存储 、 检索 的 压力 。 为 了 进一步 地 加 快 天 文 数据 


的 检索 ， 引 入 了 DIF 工 其 整合 MySQL 数 据 库 ， 使 该 方案 能 够 满足 对 海量 天 文 数据 进行 高 效 地 锥 


形 检索 的 需求 。 通 过 测试 ， 在 本 文中 的 分 布 式 的 检索 方案 ， i corded E 够 对 海 
量 天 文 数据 进行 高 效 的 锥 形 检 索 ， 不 仅 可 以 缓解 锥 形 检索 所 带 来 的 负载 压力 ， 能 有 效 保证 娄 


据 的 安全 性 、 数 据 库 的 高 可 用 性 。 未 来 进 一 ula A a HEA 
LPix、Q3C 等 ) 是 否 同 样 适 用 于 本 文 的 架构 方案 ， 以 及 列 式 数据 库 或 者 向 量 引擎 对 锥 形 检 索 的 影 


响 。 另 外 DIF 适 用 于 mariaDB 和 MySQL， 需 对 比 二 者 的 检索 性 能 


。 最 后 ，DIF 工 具 的 算法 是 否 可 


以 利用 GPU 加 速 、 以 及 如 何 改进 锥 形 检索 的 算法 ， 需 要 进 步 的 试验 和 探索 - 
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Abstract: With the progress of sky survey projects, traditional database technology cannot satisfy 
the requirements of massive astronomical data storage and retrieval performance. In this paper, aiming 
at the high concurrency and performance of massive astronomical data storage and cone search, 
database middleware technology is used. When massive data reaches the limit of traditional database 
storage, it can be stored in the form of sub-database and sub-table through middleware technology. In 
the database cluster, the characteristics of the relational databases and distributed technology are fully 
integrated. In this article, the application of MySQL database integrated DIF plug-in technology to 
establish a pseudo-spherical index in a distributed database can meet the needs of spatial indexing in 
massive astronomical data. 
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